אומנות בינה מלאכותית
יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים.
| ||
יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים. | |
אומנות בינה מלאכותית מתייחסת לכל אמנות שנוצרה על בסיס שימוש בבינה מלאכותית.
כלים ותהליכים
[עריכת קוד מקור | עריכה]ברמה הבסיסית ביותר, אמנים יכולים להשתמש באלגוריתמים מבוססי חוקים, בכל מיני צורות של חיקוי מברשות צבע וכדומה. ז'אנר זה הוא יותר "כלי עזר לאמן" ופחות נחשב כ"בינה מלאכותית יוצרת". אחת הגישות היותר מוקדמות לשימוש ברשתות נוירונים מלאכותיות הייתה התוכנה DeepDream של גוגל שיודעת לקחת תמונות קלט ולהפוך אותן לתמונות "פסיכדליות" שנותנות הרגשה של הזייה או חלום בהקיץ.
רשתות נוירונים "פשוטות" של גנרטור - שופט, GAN
[עריכת קוד מקור | עריכה]דור ראשון של רשתות אלו, עושה שימוש בארכיטקטורת רשת היודעת ליצור תמונות, למשל. מכלול זה של הרשת מהווה את ה"גנרטור" כאשר בזמן ה"ריצה" של הרשת (Inference), ממירים את התמונה בקלט - לתמונה בסגנון שבו מעוניינים - למשל, ציור בסגנון של ואן גוך. במקביל, מפעילים רשת "שופט" שבוחנת אם תוצר הגנרטור אכן מתאים למה שנתבקש, בהשוואה לחומרים עליהם השופט התאמן, מול תמונות אמיתיות. כאשר מגיעים לרמה שבה השופט לא יכול להבדיל בין התוצרת של הגנרטור לבין המציאות - משפרים את השופט, במצב שבו השופט מזהה בקלות רבה מידי כי מדובר ב"זיוף" - משפרים את הגנרטור. ארכיטקטורה זו מאפשרת ליצור תמונות "מזויפות", כאלו שהרשת יצרה, לכאורה, בכל רמת איכות נדרשת. רשתות אלו נקראות (באנגלית): Generative Adversarial Networks, GAN. רשתות אלו פותחו לראשונה על ידי איאן גודפלו (Ian Goodfellow) שעבד אז בגוגל. רשתות אלו מתאימות ליצירת תמונות של עולמות תוכן שבהם קיימים כבר מאגרי מידע גדולים (למשל, פנים של אנשים - כאשר הרשת מייצרת אנשים שנראים אמיתיים, אבל כאלו שאינם קיימים).
רשתות גנרטור-שופט, שיודעות ללמוד "סגנונות"
[עריכת קוד מקור | עריכה]הגנרטור של רשתות אלו כולל ארכיטקטורה של "מקודד" (Encoder), מרחב סמוי מועט ממדים ו"מפענח" (Decoder). ארכיטקטורה זו מאפשרת ל"מפענח" ללמוד סגנונות רצויים במהלך האימון. בשלב ה"ריצה" - מכניסים קלט רצוי - למשל, תמונה שהמשתמש צילם - ואז המפענח ימיר אותה לתמונה בסגנון שעליו המערכת התאמנה.
באיור משמאל, רואים ארכיטקטורה של Auto-Encoder, כלומר, ארכיטקטורה שמאפשרת לאמן את המפענח, על ידי הכנסת תמונות למקודד, כיווצן למרחב הסמוי ופתיחתן מחדש, כאשר פונקציית היעד היא שתמונת הפלט תהיה דומה ככל האפשר לתמונת הקלט. אימון כזה, גורם למפענח ללמוד את ה"סגנון" של תמונות הקלט וכך, אפשר לאמן אותו לחקות סגנון של אמן מסוים, תקופה, או כל מאפיין אחר. במרחב הסמוי, לעומת זאת, מתקבל "קוד" שמבטא את תוכן התמונות. בארכיטקטורה זו - אם "מנתקים" את המקודד ומכניסים נתונים ישירות למרחב הסמוי - ניתן לקבל תמונות רצויות בסגנון שעליו אומן המפענח.
שימוש במרחב הסמוי
[עריכת קוד מקור | עריכה]דור מתקדם יותר של רשתות - מאפשר להכניס לגנרטור לאוו דווקא תמונות - אלא להתערב ישירות במרחב הסמוי. ארכיטקטורה זו מאפשרת, למשל, להכניס טקסט ולקבל תמונה עשירה בפרטים. ברשתות מתקדמות אלו, ניתן גם לבקש לא רק שהתוצאה תהיה דומה לדאטה סט אמיתי כלשהו - אלא למספר פונקציות התכנסות במקביל - למשל, שהתמונה תהיה "נעימה לעין/ אסתטית" לצופה אנושי, שהתמונה תהיה כזו שמשרה שמחה וכיוצא באלו.
רשתות "טרנספורמרים"
[עריכת קוד מקור | עריכה]ארכיטקטורה שמאפשרת "הסתכלות מקבילית" ושימוש בריבוי מנגנוני "תשומת לב" על סוגיות שיש להן מימד של סדרתיות - כמו שפה, וידאו או מוזיקה.[1]רשתות אלה זוכות להצלחה רבה במגוון יישומים ואולי, בעיקר, בכל הקשור להבנת שפה טבעית - NLP.
רשתות פעפוע
[עריכת קוד מקור | עריכה]Diffusion Networks, רשתות אלה מייצרות "רעש" רנדומלי ועל ידי בדיקה עד כמה צמצום הרעש "מתקרב" לפתרון הרצוי - הן יכולות לחולל (ליצר), פתרונות שלא נראו קודם, מאותו "סוג". רשתות אלו נמצאו מתאימות במיוחד ליישומי בינה מלאכותית יוצרת.
יישומים מובילים
[עריכת קוד מקור | עריכה]רשתות טקסט לתמונה
[עריכת קוד מקור | עריכה]ביולי 2022, פורסמו רשתות מאוד חזקות, כמעט, כל כמה ימים. הרשתות המובילות הן[2]DALL-E של חברת openAI שמנהלה איליה סוצקבר למד בישראל, הרשתות Imagen ו[3]PARTI של חברת גוגל, רשתות אלו, ככל הידוע, נוצרו על ידי קבוצת החוקרים בגוגל איקס/ גוגל בריין. בקבוצה זו, פועלים בין השאר, ג'ף דין וג'פרי הינטון. מידג'ורני היא רשת חזקה להמרת טקסט לתמונות וכך גם רשתות נוספות.
רשימה חלקית של הרשתות :
- [2]DALL-E-2, של חברת OpenAI, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
- Midjourney, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
- [4]Imagen של חברת גוגל, נכון לאוגוסט 2022 - עדיין סגור לציבור.
- PARTI של חברת גוגל, נכון לאוגוסט 2022 - עדיין סגור לציבור.
- [5]Stable Diffusion, נפתח לציבור ב 20.8.2022
- [6]vq-diffusion, של חברת מיקרוסופט, חינמי.
- Simulacrabot, נכון לאוגוסט 2022 - עדיין סגור לציבור.
- Shonekov AI, חינמי.
- Meta Make a Scene, נכון לאוגוסט 2022 - עדיין סגור לציבור.
- Deep AI Text to Image, חינמי.
- MindsEye Beta, חינמי.
- CrAIyon, חינמי.
- Min-Dalle, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
- Dall E Flow, חינמי
- Wombo
- Laion AI Erlich
- latent Diffusion
- Glid 3 xl
- [7]Night Cafe
- Disco Diffusion
- Cogview
- Pixray
- Hot Pot AI, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
- Gaugen2, של חברת NVIDIA, חינמי.[8] מאפשר לצייר סקיצה גסה והתוכנה ממירה את הסקיצה לתמונת נוף פוטוריאליסטית.
- ERNIE-ViLG 2.0, מודל של חברת Baidu מאוקטובר 2022. המודל זמין לציבור בחינם (מעל Huggingface).
במקביל, במהלך קיץ 2022, התפרסמה קבוצה גדולה של "מודלי שפה גדולים". השילוב של שתי משפחות אלה מאפשר לבנות רשתות שניתן "לדבר אליהן" בשפה טבעית, הן מבינות למה הכוונה (בדרך כלל, הקלט הוא טקסט שמקלידים אל היישום) ומציירות ציור. לרשתות אלו יש כמה וכמה תכונות מפתיעות:
- מכיוון שהרשתות אומנו על מיליארדי דוגמאות והן "מכירות" את כל מה שאי פעם התפרסם, בהתאם, אפשר לבקש מהן לצייר תמונות בסגנון של צייר מסוים, מתקופה מסוימת, מז'אנר אמנותי מסוים וכדומה. תכונה זו מאפשרת למשתמש ללמוד תחומי עניין חדשים לגמרי עבורו.
- בניגוד למצלמות, הרשתות אינן מוגבלות ל"דברים אפשריים" וכך אפשר לבקש מהן לצייר "סופת שלג תת-מימית" או כל דבר אחר - והן יציירו משהו שבדרך כלל, נראה משכנע באופן מפתיע.
- אפשר לבקש מהן לצייר חוויה אישית מהעבר והן "ישחזרו" אותה.
- אפשר לבקש מהן להשלים תמונה קיימת למשל, צילום אישי, ולהרחיב אותה באופן כזה שהתוכנה תשלים פרטים בעצמה, כולל "המצאה" של ההקשר הוויזואלי. לדוגמה, אפשר להעלות תמונת פורטרט ולבקש מהתוכנה לצייר גוף שלם של אדם שנמצא בתוך מסיבת ריקודים והתוכנה תשלים לבדה את כל הפרטים, בצורה שלא מאפשרת להבחין אם מדובר בצילום דוקומנטרי או לא.
- ניתן להתמש ברשתות אלו ליצירת "לוגו".
- הרשתות מאפשרות מגוון גדול של "סגנונות" וככאלו, הן יכולות להחליף חלק מהעבודה של מעצבים גרפיים קלסיים/ אנושיים.
ביולי 2023, התפרסם מימוש של חברת "סטייבל דיפיוז'ן" - המאפשר להפוך סקטש ידני ותיאור טקסטואלי - לתמונה. מימוש זה מתאים במיוחד לילדים. (https://clipdrop.co/stable-doodle).
רשתות טקסט לווידאו, תמונה לווידאו ווידאו לווידאו
[עריכת קוד מקור | עריכה]רשתות "פשוטות" ועם מימשקים מאוד טכניים החלו להופיע מתחילת 2022. בתאריך 29.9.2022 - חברת "מטא", פרסמה מאמר שמתאר קיום של כלי המאפשר יצירת "קליפים" ישירות ממשפטי טקסט. היישום, ככל הידוע, נשען על יכולת לחזות פריימים קדימה וכך, למלא את הסרטון, במימד הזמן, בפריימים שיוצרים קליפ חלק ונעים לעין. החיבור של טכניקות כאלה, ביחד עם מודלי שפה גדולים - צפוי לאפשר יצירת סרטי וידאו ארוכים יותר.[9] תיאור היישום, מאת MattVidPro AI, סרטון באתר יוטיוב
ב-5 באוקטובר 2022, חברת "גוגל" פרסמה רשת שגם היא מייצרת "קליפים של וודיאו" לפי טקסט בחלון הנחיה - Imagen Video, גם היא, למעט מאמר ודוגמאות, טרם שוחררה לציבור.[10]
ב-20 באוקטובר 2022, קבוצת המפתחים Deforum פרסמה אפליקציה המאפשרת ליצור ווידאו מתוך טקסט וליצור "קליפים" של עד 1000 פריימים (כחמישים שניות סרט). האפליקציה מאפשרת להגדיר "חלון הנחיה טקסטואלי" לכל פריים רצוי, או לקבוצת פריימים רצויה ולקבוע את מיקום המצלמה ותמועתה היחסית לסצנה - כולל "זום אין", תנועה בציר X ותנועה בציר Y. השימוש באפליקציה פתוח לציבור הרחב ואולם הוא תמורת תשלום.[11]
במהלך 2023 הופיעו מגוון יישומים שמאפשרים לחולל ווידאו על בסיס טקסט בחלון הנחיה ("פרומפט") ו/או תמונה בחלון ההנחיה. שני יישומים בולטים הם RunwayML ו-Pikalabs. החברה הישראלית "אסטריה" מאפשרת לחולל ווידאו מטקסט, תמונה או ווידאו קיים עם UI נוח ועל בסיס שימוש במודלים קיימים כמו למשל Deforum.
האפליקציה invideo מאפשרת להכניס חלון הנחיה טקסטואלי והיא בעצמה, באופן אוטומטי, מפתחת מהטקסט רעיון שלם, כותבת תסריט, מפרקת אותו לסצנות, מוצאת קטעי וידאו שאינם מוגנים בזכויות יוצרים, עורכת אותם יחדיו, מייצרת קריינות אנושית, מוצאת קטעי מוזיקה חופשיים ועורכת את הכל לסרט קוהורנטי שאותו ניתן לייצא במגוון פורמטים[12]
בפברואר 2024, חברת Open AI פרסמה אודות קיום מודל שנקרה SORA. מודל פעפוע הכולל שיטת טוקניזציה חדשנית - על ידי שימוש בפאצ'ים במרחב הסמוי. מודל SORA מסוגל לעשות סרטים באורך 60 שניות לפי חלון הנחיה טקסטואלי באיכות יוצאת דופן - תוך שהוא מצליח לשמור "עקביות" של דמויות, תנועה משכנעת בממד הזמן, צללים, החזרי אור והאופן שבו הם מתבטאים כלפי חומרים שונים וטקסטורות שונות ועמידה ב"חוקי הפיזיקה". המודל מאפשר ליצור ווידאו לפי טקסט, ווידאו על בסיס תמונה, ווידאו על בסיס ווידאו אחר, למזג בין קליפים, לחולל תמונות ברזולוציה של 2048 פיקסלים על 2048 פיקסלים ויש לו תכונות פורצות דרך נוספות.[13]
מידול תלת־ממדי לטובת אנימציות ויישומי מציאות וירטואלית
[עריכת קוד מקור | עריכה]יכולות מידול תלת מימד על בסיס מחשבים החלו כבר באמצע שנות התשעים, כאשר מעבדי המחשב הגיעו לרמת ביצועים שמאפשרת את זה. המידול התלת־ממדי, ביחד עם יכולת "רינדור", הצללות, השתקפויות וכדומה - הביאה לפריחה של יישומים אמנותיים חדשים ובכללם משחקי מחשב תלת־ממדיים. אחת התוכנות המקובלות בהקשר זה היא תוכנת בלנדר שפותחה במקור לצרכים מסחריים. החברה שהובילה את פיתוח התוכנה קרסה עסקית ואולם, מכיוון שהיה לה בסיס משתמשים רחב ומכיוון שהיא תומכת תהליכים רבים ובכללם יצירת מודלים תלת־ממדיים, יכולת הגדרת "חומרים", "טקסטורות", רינדור, אנימציה, עריכת וידאו, יצירת משחקי מחשב ועוד - מייסד החברה הצליח לשלם עבור הזכויות ולהפוך את התוכנה לתוכנת "קוד פתוח" שנשענת על קהיליית מפתחים ואמנים-משתמשים רחבה. נכון ל 2022 התוכנה מאוד נפוצה, הקהילייה נתמכת על ידי תאגידי ענק שהם בעלי עניין כמו אדובי ופייסבוק.
במהלך 2022, תוכנות ה"טקסט לתמונה" ותוכנות המידול התלת־ממדי החלו להתמזג במגוון דרכים. ראשית, תמונות שנוצרו בתוכנות "טקסט לתמונה" יכולות לשמש כ"טקסטורות" עבור תוכנות המידול התלת־ממדיות. שנית, תמונות שנוצרו בתוכנות "טקסט לתמונה" יכולות לשמש כ"קידוד" ליצירת מודלים תלת־ממדיים על ידי הפיכת התמונה ל"מפת עומק" ופתרון ה"נורמלים" של המשטחים השונים - הדבקת התמונה, מפת קווי העומק ומפות הנורמלים לתוך תוכנות המידול וביצוע "אקסטרוד" חצי אוטומטי, המבוסס על התמונות שהבינה המלאכותית יצרה. תהליך זה יוצר מודל תלת־ממדי מתוך התמונה שהבינה המלאכותית יצרה באופן כמעט ישיר. במהלך ספטמבר 2022 החלו להופיע גם שילובים של התוכנות כך שניתן לפנות מתוך תוכנות המידול התלת־ממדי - ישירות אל תוכנות ה"טקסט לתמונה" בלי שצריך לצאת מהיישום. אוסף היכולות האלו מביאות לכך שאמנים יכולים ליצור מודלים תלת־ממדיים וסביבות תלת־ממדיות - בלי להזדקק לקבוצות גדולות של אנשי תוכנה - מה שנותן תנופה אדירה ליכולות ליצור אנימציות תלת־ממדיות וסביבות למשחקי מחשב כמו גם, סביבות לתמיכה ביישומי מציאות וירטואלית.[14]
במהלך ספטמבר 2022, חברת NVIDIA פרסמה שני יישומים ליצירת מודלים תלת־ממדיים. הראשון - הופך דמויות דו־ממדיות למודלים תלת־ממדיים.[15] היישום השני מאפשר ליצור "תאום דיגיטלי" של סביבות שלמות בתלת־ממד.[16] יישום זה יכול לאפשר עיצוב פנים קלאסי, יישומי מציאות וירטואלית - אבל, הוא יכול גם לתמוך סביבות אימון ל"למידת חיזוקים" של רובוטים בעולם הפיזי ולכך עשויות להיות משמעויות ניכרות.
בסוף מאי 2023, חברת Blockade Labs פרסמה יישום שמאפשר ליצור סביבה תלת־ממדית ו"לטייל בתוכה" - כאשר הסביבה נוצרת לפי חלון הנחיה טקסטואלי, מספר קטן של קוים משורבטים ביד חופשית ובחירת סגנון".[17]
רשתות תמונה לטקסט
[עריכת קוד מקור | עריכה]רשתות שהתמחותן בכתיבת טקסט המתאר את מה ש"רואים" בתמונה. רשתות אלו חשובות לטובת שימושים ספציפיים, למשל, זיהוי תמרורים עבור מכונית אוטונומית. מעבר לכך, הצמדה אוטומטית של טקסט המתאר את מה שרואים בתמונה, יכולה להקל מאוד על מנועי חיפוש. לרשתות אלו יש מגוון גדול של שימושים ובכללם: מתן כותרות לתמונה, יכולת "לתשאל" תמונות. אחד המודלים היותר חזקים בתחום הוא מודל "פלמינגו"[18] של חברת "דיפמיינד". מאמר אינטרנטי שמתאר את המודלים השונים והשימושים האפשריים שלהם, נכון למרץ 2022.[19]
החל מיולי 2023, ניתן להעלות קובצי תמונה לכמה וכמה מודלי שפה גדולים ולקבל באמצעותם תיאור של התמונה, או אפילו לנהל שיחה המתייחסת לתמונה. התכונה הזו מאופשרת במודל השפה הגדול של אנתרופיק - קלאוד 2, במודל השפה GPT4 - הן ישירות והן באמצעות "פלאגאינים" ייעודיים\ במודל השפה "בארד" של גוגל והיא כנראה, תהפוך להיות נפוצה יותר ויותר.
שימוש במודלי שפה גדולים לטובת אמנות
[עריכת קוד מקור | עריכה]במהלך 2022, פרסמו מספר "מודלי שפה גדולים". מדובר במודלים שכמות הפרמטרים החופשיים שלהם היא מאות מיליארדים ואף טריליונים. רשתות אלו מאומנות במשך זמן רב, על פריטי מידע רבים וכמות הפרמטרים החופשיים שלהן דומה לזו של מוח האדם. ככל שעובר הזמן, מסתבר של"מודלי השפה הגדולים" יש יכולות שלא נחזו - וחלק מיכולות אלו משמשות לאמנות ובכלל זה:
- מודלי השפה מהווים את הרשת הראשונה - שהופכת את השפה החופשית של המשתמש לשפה שהרשת שהופכת טקסט לתמונה תוכל להתמודד איתה. מודל השפה הגדול הופך את שפת המשתמש לישויות מידע מוגדרות היטב, "הבנה" מה הנושא, מהן מילות תיאור, כיצד הישויות השונות מתייחסות האחת לשנייה וכדומה.
- "מודלי השפה הגדולים" יכולים לשמש, באופן ישיר, לכתיבת סיפורת, ממגוון הז'אנרים הקיימים ובסגנונות של סופרים ידועים.
- מודלי השפה יכולים לכתוב שירה במגוון סגנונות (כולל "האיקו", למשל, או בלדות וכדומה). לדוגמה, במענה לבקשה: "תכתוב לי האיקו על כתיבה" המודל (GPT-3) כתב, באפריל 2022:
Writing is a battle between my will
And the cruel indifference of the world
but, it is just words
דוגמאות לרשתות שהן "מודלי שפה גדולים", המובילים ביולי 2022:
- [20]GPT-3 - של OpenAI
- [21]LaMDA - של גוגל
- [22][23]PaLM - של גוגל
- Gopher - של DeepMind (חברה בריטית בבעלות גוגל)
- Chincilla של DeepMind (חברה בריטית בבעלות גוגל)
- MT-NLG של חברת מיקרוסופט[24]
- BLOOM - של קונסרציום חוקרים בקוד פתוח[25]
שימוש במודלי שפה גדולים לכתיבת מחזות. באוגוסט 2022, במסגרת פסטיבל "תיאטרון פרינג'", בעיר אדמונטון, בקנדה, הועלו מחזות שבסגרתם "שחקנים אמיתיים", בשר ודם, שיחקו במחזות שנכתבו על ידי מודל צ'ינצ'ילה של חברת DeepMind. לראשונה בהיסטוריה בני אדם הלכו להצגות שרובוטים כתבו,[26][27]
בסביבות יולי 2023 פורסמו מספר מודלי שפה גדולים שאומנו על עברית ובכללם: קלוד 2 של חברת אנטרופיק ובארד של חברת גוגל. קלוד 2 "יודע" גם לנקד, לתרגם ארמית והוא, ככל הנראה, אומן על חומרים מקוריים, עכשוויים, בעברית וזאת מכיוון שיש לו הכרות עם התרבות הישראלית המודרנית. גם בארד וגם GPT4 - CODE INTERPERTER (של חברת אופן איי איי), מאפשרים להעלות קבצים, כולל תמונות, אל מודל השפה - ולשוחח איתו על התכנים של התמונות.
במהלך 2023 התפרסם מספר גדול של מודלי שפה גדולים בקוד פתוח. מודלים אלה מאפשרים לאמן מודלים ל"עולמות תוכן" של משתמש מקומי או תאגיד עסקי גדול, כולל ב"סביבה סגורה". רשימה של מודלים כאלה מתוחזקת למשל, באתר Huggingface.[25]
רשתות ליצירת מוזיקה
[עריכת קוד מקור | עריכה]גם המוזיקה, בדומה לשפה, נשענת על "סדרתיות", כלומר, המוזיקה מתאפיינת, בין השאר, בסדר של הצלילים לאורך הזמן. החל משנת 2020, הופיעו רשתות שמסוגלות להלחין מוזיקה. באוגוסט 2022, "לראשונה בהיסטוריה", חברת הפקה גדולה "חתמה על חוזה עם ראפר וירטואלי". האירוע גרם להתנגדויות רבות ולאחר ש"הראפר הווירטואלי" ניבל את הפה ולאור ההתנגדויות - השימוש ב"ראפר הווירטואלי" הופסק.[28]
אפליקציות:
- AIVA Song Generator
- Amper AI Music Generator
- MuseNet MIDI Generator
- AudioCipher MIDI Plugin & Melody Generator
- Boomy AI Music Community
- Synthesizer V SOLARIA - יישום המאפשר ליצור שיר שלם בהתבסס על קול של זמרת וירטואלית.[29]
יישומים אלה לא זוכים לתפוצה גדולה מאוד והם נחשבים כ"לא משכנעים" עדיין.
במהלך מרץ 2024 החלה גרסה 3 של האפליקציה Suno לאפשר לחולל שיר שלם - כולל מילים, מגוון גדול של סגנונות מוזיקליים, כלי נגינה מלווים וכדומה. גרסה זו משכנעת מאוד ונחשבת להיות הראשונה שיכולה "לנצח" יצירות אנושיות.
רשתות המרת טקסט לדיבור
[עריכת קוד מקור | עריכה]רשתות אלו מאפשרות להכניס טקסט ל"חלון הנחיה", לבחור דמות מפורסמת מסרט או משחק ולקבל "הקראה" של הטקסט בקול של הדמות הנבחרת. איכות התוצאה שנויה במחלוקת, בעיקר בגלל הקושי לחקות אינטונציות.
תוכנות ליצירה ועריכה של סרטים ווידאו
[עריכת קוד מקור | עריכה]החל משנת 2022, הרשתות שתוארו לעיל משמשות לעריכת ווידאו בצורה שמכפילה את מהירות העריכה בסדר גודל פי עשר.
באוגוסט 2022, היישום RunwayML שילב יכולת ל"ניקוי אוטומטי" של הרקע בסרטי ווידאו, בזמן אמיתי - כך שניתן לבקש להחליף את הרקע באמצעות הנחיה טקסטואלית - בלי להזדקק לטכניקות של "מסך ירוק".
שימוש מועיל נוסף, זו היכולת לסמן כל דבר רצוי על גבי הווידאו והתוכנה "יודעת" באופן אוטומטי למחוק את מה שסומן ולמלא במקומו את המסך בפיקסלים, כך שאי אפשר לדעת שהמחיקה התבצעה. מאפשר להסיר אנשים שהופיעו בווידאו "בטעות" וכדומה.[30] יכולת זו מכונה בז'ארגון המתהווה של אנשי עריכת הווידאו באמצעות בינה מאלכותית יוצרת - Inpainting (שחלוף חזותי).
באמצע אוגוסט 2022 יצאה רשת - תוכנה חינמית לשימוש הציבור, רשת המאפשרת לייצר קליפים קצרים של אנימציה על בסיס חלון הנחיה טקסטואלי.[31]
בתחילת דצמבר 2022 פורסם יישום המאפשר יצירת "קליפ וידאו" - כאשר ניתן לבחור שילובים של תמונות אמיתיות, או כאלו שנוצרו על ידי בינה מלאכותית, תסריט טקסטואלי שהמשתמש כותב בעצמו - או כזה שבינה מלאכותית יוצרת, "אודיו" שנוצר על ידי בינה מלאכותית וליצור מהשילוב קליפ וידאו ש"מושך תשומת לב".[32]
יצירת וידאו מטקסט
[עריכת קוד מקור | עריכה]במהלך 2024, הופיעו מספר יישומים שמאפשרים ליצור וידאו מחלון הנחיה טקסטואלי. האפליקציה הראשונה שהתפרסמה נקראת SORA מתוצרת חברת Open AI ואולם, נכון לספטמבר 2024, יישום זה טרם נפתח לציבור. חברת Runway ML פרסמה גרסה המאפשרת ליצור קליפים של 5 או 10 שניות והיא נחשבת תוכנה מובילה בתחומה. היישום Kling הסיני מאפשר לחולל וידאו ברזולוציה גבוהה כמו גם - להכתיב ליישום, כאשר יוצרים וידאו מתמונה - איך להניע כל "ישות" בתמונה, לאורך הזמן (לקבוע את מסלולי התנועה של הישויות השונות).
יצירת וידאו מתמונה ו/או על בסיס "מסגרות מפתח"/ Key frames
[עריכת קוד מקור | עריכה]החל מאוגוסט 2024, הופיעו מספר יישומים שמאפשרים "להכתיב" את הפריים הראשון של הקליפ, את הפריים האחרון ותמונה נוספת כ Key frame והיישום מייצר קליפ וידאו שמחבר, לכאורה, בצורה "חלקה" את שלושת התמונות. היישום הזה מאפשר גם "לחבר" רצף של קליפים לסרט ארוך - כאשר לכל פריים ראשון שיוצרים - מכניסים את הפריים האחרון של הקליפ הקודם שיוצר ומחברים את כל הקליפים לסרט שלם, ארוך, למשל באמצעות תוכנת עריכה.
הפקה מלאה של סרטים (משלב הרעיון, דרך כתיבת תסריט, סצנות, בימוי, עריכה וכדומה)
[עריכת קוד מקור | עריכה]ז'אנרים ייחודיים
[עריכת קוד מקור | עריכה]- יצירת אוואטרים.
- סגנונות.
- הגדרת "מסלולים" של ישויות בסרט.
בינה מלאכותית לפיסול
[עריכת קוד מקור | עריכה]לא מוכרים יישומי בינה מלאכותית שיודעים לפסל באופן ישיר. פרויקט בריטי ארוך שנים בשם Ai-Da, עוסק ברעיון של יצירת רובוט בצורת אשה-אמנית (היומנואידית). לפי פרסומים שונים, AI-DA, הדגים פיסול בתהליך שמזכיר פסל אנושי, כלומר, הרובוט הגה פסל ויצר אותו בפועל.[33][34][35][36] הרובוט הופיע בפני בית הלורדים הבריטי.[37]
בינה מלאכותית לתמיכה בארכיטקטים
[עריכת קוד מקור | עריכה]מגוון יישומים מאפשרים לתמוך בתהליכי עיצוב ואדריכלות על מרכיביהם השונים. דוגמה פשוטה לכך היא שימוש בתוכנת "מידג'ורני" לקבלת עיצוב פנים רצוי, ביצוע איטרציות חוזרות ונשנות עד לקבלת תמונה רצויה למעצב האנושי ובחירת מרכיבים מתוך התמונה - כהשראה לעיצוב "האמיתי".
נושאים שאפשר לאמץ כוללים למשל,"טבלת צבעים", "אווירה", "סידור הרהיטים וסגנונם", טקסטורות, היחס בין צמחייה-עציצים ליתר מרכיבי העיצוב וכדומה[38]
דוגמה נוספת, לתמיכה באדרכילות, אפשר למצוא בקליפ ההדרכה שלהלן.[39]
בינה מלאכותית לתמיכה במשחקי מחשב
[עריכת קוד מקור | עריכה]יישומים שמקלים על תהליכי יצירת סביבות המשחק - תורמים לתעשיית משחקי המחשב. יישומי טקסט-לתמונה תורמים ליצירת סביבות תלת־ממדיות, יישומי טקסט לווידאו מאפשרים ליצור את הגרסאות הראשונות שעליהן אפשר לפתח סביבות משחק.
שימוש שככל הנראה, צפוי לחולל מהפכה של ממש במשחקי המחשב - זה כל עולם ה"דמויות שאינן שחקן". מודלי השפה הגדולים והצ'אטבוטים המודרניים מאפשרים לכל "דמות שאינה שחקן" להיות שחקן עם אופי, רצונות ויכולת לשוחח עם השחקן האנושי - באופן שמשפיע על התפתחות המשחק.
במהלך שנת 2022, חברות החלו לשלב יכולות כאלה לתוך המשחקים שלהן, כך למשל, חברת Unity שילבה לתוך המנוע שלה "דמויות שאינן שחקן" המנהלות שיחות עם השחקנים האנושיים בצורה שמשפיעה על התפתחות המשחק.
שימוש בבינה מלאכותית ליצירה ואיור של ספרי ילדים, קומיקס, כרזות, מגזינים וכיוצא באלו
[עריכת קוד מקור | עריכה]ככל שמודלי השפה משתפרים, מצד אחד והמודלים להמרת טקסט לתמונה, משתפרים, מצד שני - ניתן "לכתוב" ספרים ולצרף אליהם איורים, ברמה שגורמת לציבור לרצות לקרוא אותם. איור של ספר ילדים הוא במיוחד אתגרי, מכיוון שנדרש לשמור את הדמויות המאוירות - כך שהזהות שלהם תישמר מאיור לאיור - לאורך העלילה. נכון לאוקטובר 2022, יש כבר מגוון תוכנות שמאפשרות את זה. הנושא משתלב גם בתעשייה המתפתחת של מכירת ספרים שנוצרו על ידי בינה מלאכותית - בחנויות מקוונות למסחר - כמו אמאזון ודומותיה.
רשתות שהתפרסמו לציבור
[עריכת קוד מקור | עריכה]במהלך אוגוסט, חברת אפל פרסמה רשת נוירונים, GAUDI, המאפשרת להפוך טקסט לסרטונים "בתוך מבנים" (Indoor). מימוש זה מחייב יכולת "לרנדר" את התמונה בזמן אמיתי - כדי להבטיח שצללים, תאורה והשתקפויות יתעדכנו כנדרש. כך למשל, אפשר "לבקש", ירידה בגרם מדרגות ויקטוריאני, עם נברשת גדולה משמאל ומראה תלויה על הקיר. המערכת תדע ליצור סרטון, כולל יצירה בזמן אמיתי של ההשתקפויות והצללים בצורה "נכונה".
במהלך אוגוסט 2022, התפרסם מודל של חברת UNITY - המשלב בין "אוואטרים" תלת־ממדיים למודל שפה גדול, GPT-3, כך שהאוואטרים משוחחים ביניהם בשפה טבעית - ומגיבים "בצורה נכונה" לשיחה שלהם - והשיחה עשירה בדימויים, הקשרים, תיאורים וכדומה - כמו שיחה של אנשים אמיתיים.[40]
ב-20 באוגוסט 2022 אפליקציית Stable Diffusion נפתחה לציבור.[41]
החל מ-1 בספטמבר 2022, תוכנת DALL E2 מאפשרת לבצע "שיחלוף חזותי", "זום אאוט קונטקסטואלי" ו"איחוי תמונות" - בתוך התוכנה (בלי שצריך ליצא את התמונה ולטפל בה בתוכנה חיצונית).
בתחילת בספטמבר 2022, החלו להופיע ריבוי של מימושי Stable Diffusion חינמיים,[42] כולל מגוון גדול של יישומים "מיוחדים" ובכלל זה היכולת לצייר "סקצ'" ולתת לתוכנה להפוך את ה"סקצ'" לתמונה ברזולוציה גבוהה,[43] פיתוח סרטונים - כאשר המשתמש מגדיר את הטקסט בחלון ההנחיה לפריים הראשון של הסרטון ולפריים האחרון של הסרטון והתוכנה מייצרת "קליפ" שעובר בין שתי התמונות שהתוכנה חוללה.
ב-8 בספטמבר 2022 - Stable Diffusion, במימוש דרך DreamStudio, הכניסו תכונה המאפשרת להעלות תמונה קיימת ולשלב אותה כהשראה לרשתות הנוירונים. תכונה זו מאפשרת לעשות "וריאציות" על תמונות קיימות שנוצרו בתוכנה עצמה כמו גם להעלות צילומים ולהשתמש בהם "להשראה", או, אפילו, סקצ'ים שישמשו בסיס ליצירת התמונה על בסיס הטקסט בחלון ההנחיה, מה שמאפשר, בין השאר, "להכתיב" גדלים יחסיים בתמונה הסופית,[44][45]
ב-21 בספטמבר 2022 Stable Diffusion, במימוש דרך DreamStudio, הכניסו תכונות חדשות לעורך היצירות שלהם ובכלל זה יכולת "שיחלוף חזותי" ויכולת "זום אאוט קונטקסטואלי".[46]
ב-5 באוקטובר 2022, חברת "גוגל" פרסמה רשת שגם היא מייצרת "קליפים של וודיאו" לפי טקסט בחלון הנחיה - Imagen Video, גם היא, למעט מאמר ודוגמאות, טרם שוחררה לציבור.[10]
ב-16 באוקטובר 2022, לפי קבוצת הפייסבוק "עליית המכונות"[47] של מתי מריאנסקי, חברת הזנק ישראלית[48] פרסמה יישום שמאפשר "להכניס" מספר קטן של תמונות (10–20) של אדם מסוים, רכב או פריט אחר והיישום "הופך" את התמונות לישות מוכרת כך שניתן אחר כך, להכניס כל טקסט רצוי לחלון ההנחיה והתוכנה תיצור תמונה שהיישות משולבת בה. התוכנה מאפשרת, בין השאר, להכניס תמונות של עצמך, של בן משפחה או של כל אדם רצוי אחר ובהמשך לכך, היא מאפשרת לכן ליצור אלבומים, ספרים, ספרי קומיקס וכיוצא בזה שהגיבורים בהם - הן אותן דמויות ששולבו פנימה. ככל הידוע, המימוש נשען על אפליקציית Dreambooth "מעל" Stable Diffusion.
ב-30 באוקטובר 2022, חברת Baidu פרסמה מודל טקסט לתמונה משל עצמה. בתחומים מסוימים, ביצועי המודל עולים על המודלים הקיימים. הטקסט בחלון ההנחיה מתורגם לסינית טרם שהוא מוזן למודל מה שמלמד כי המודל אומן בשפה הסינית.[49]
בנובמבר 2022, פורסם יישום המאפשר להכניס "רעיון כללי" לחלון ההנחיה - והיישום בונה חלון הנחיה עשיר בשמות תואר, תיאורים, ייחוס לאמנים מהעבר, ייחוס לתקופות היסטוריות, לרזולוציה, לסגנונות וכדומה - והמשתמש יכול להעתיק את ההצעה או חלקה ולהשתמש בה כקלט לרשתות הטקסט לתמונה.[50]
בנובמבר 2022, חברת Nvidia פרסמה מודל טקסט לתמונה שמאפשר העברת סגנון בנפרד מהטקסט, הצגה של טקסטים עם איות נכון בתוך התמונה שהמודל יצר והמרה נוחה של איור ידני לתמונה - מה שמאפשר שליטה משופרת בקומפוזיציה, בפרספקטיבה וביחסי הגדלים בין האובייקטים השונים של התמונה המתקבלת. eDiff-I.
בסוף נובמבר 2022 יצא מודל חדש של GPT-3 - de-vinici 003. המודל יכול לטפל בטקסטים הרבה יותר ארוכים בהשוואה לקודמו ויש לו מרכיב של "הסברים" יותר חזק בהשוואה למודלים קודמים.
ב-26 בנובמבר 2022 הוציאה "סטייבל דיפיוז'ן" גרסה 2.0 שלהערכת רוב המשתמשים - היא גרועה בהרבה מקודמתה. חלק מהפרשנים מייחסים את הפרסום המוזר הזה כניסיון להתמודד אם תביעות עתידיות בהקשרי קניין רוחני או לחצים של משקיעים שנכנסו לחברה וחוששים מתביעות עתידיות או טענות מצד חברות ההפקה הענקיות, הוותיקות.
אתר אינטרנט ש"מתחזק" רשימה מקיפה של היישומים בנושא בינה מלאכותית יוצרת הוא האתר Futurepedia. נכון לדצמבר 2022, האתר מפרט למעלה מ-400 יישומים - כולל פירוט לגבי פופולריות היישום, האם הוא עולה כסף או חינמי ומידע מועיל נוסף.[51]
ב-19.12.2022 פורסם מודל שפה שמאפשר שיחה רצופה, אבל, הוא יודע לשלב בתשובות גם את תוצאות החיפוש של מנוע החיפוש של "גוגל" בזמן אמיתי ולעבוד לפי פיקוד קולי. "בוט" זה יודע גם לקבל הנחיות לצייור תמונות ישירות מטקסטים. ככל הידוע, ה"בוט" נשען על GPT3.5.[52]
ב 5.1.2023 התפרסם יישום מעל huggingface - רשת דיפיוז'ן, Versatile Diffusion, רשת שמאפשרת מגוון יישומים המבוססים על רשתות דיפוזיה ובכלל זה טקסט לתמונה, תמונה לטקסט, וריאציות על טקסט, "פרימת שזירה" בין הסגנון לסמנטיקה של תמונות, שילוב חלון הנחיה טקסטואלי ותמונה ומשחק ישיר על המרחב הסמוי באמצעות תרגום תמונה לטקסט, מניפולציה על הטקסט, יצירת תמונה מהטקסט החדש. המעבדה מאחורי היישום מבטיחה לשלב גם יישומים של המרת טקסט ישירות לקובצי תלת מימד ועוד.[53]
בשלהי 2022, ChatGPT, יישום של חברת OpenAI זכה לפופורליות עצומה "בבת אחת". מדובר ביישום של "בוט שיחה" מעל GPT3. ה"בוט" מאפשר כתיבת מגוון גדול של "סוגי טקסט" בדומה ל GPT3, אבל, הוא מאפשר גם כתיבת קוד תוכנה לפי בקשות בלשון חופשית - ישירות לתוך תוכנות אמנות כמו בלנדר. היישום זכה ליותר ממיליון משתמשים תוך חמישה ימים מיום חשיפתו לציבור והוא זוכה להתענינות ציבורית והד רב באמצעי התקשורת ההמוניים.
במהלך ינואר 2023 התפרסם יישום מעל huggingface - יישום המאפשר יצירת תמונות מטקסט - אבל, כולל את האפשרות ליצירת טקסטים בתמונה כך שהמילים מאויתות נכון. אף על פי שבעבר הועלתה טענה כאילו ל"גוגל" יש כבר יכולת עזו, זו פעם ראשונה שהיכולת מונגשת לציבור.[54]
ב 31.1.2023 חברת Playgroundai עדכנה את היישום שלה כך שהוא מאפשר עריכה באמצעות טקסט - כולל עריכה לפי הנחיות טקסטואליות ועם מסכות - הצירוף הזה מאפשר לצייר "כמעט כל דבר" - בלי לדעת לצייר בכלל, אלא לפי הנחיות טקסטואליות בלשון חופשית, כברירת מחדל, האתר משתמש במודל סטייבל דיפיוז'ן.[55]
ב 7.2.2023 RunwayML פרסמה, בתוך אתר האינטרנט של היישום, יכולת אימון של סטייבל דיפיוז'ן - כולל אימון על פרוטרטים של בני אדם, חתולים וכלבים. לאחר האימון, היישום מאפשר לשלב את הדמויות - ישויות שנוצרו בכל יצירה של המודל. בנוסף, החברה שילבה AI Tools הכוללים מגוון גדול של יישומים בהקשר לווידאו ובכלל זה "שיחלוף חזותי" שמאפשר למחוק דמויות מתוך סרט בצורה "אוטומטית", להחליף רקע של דמויות בסרט בצורה אוטומטית ומגוון תכונות נוסף. החברה הכריזה על יישום GEN-1 שלטענתה יכלול יכולת להפוך ווידאו קיים - לווידאו בסגנון של תמונה נבחרת, להעביר ווידאו לווידאו בסגנון של אמן או ז'אנר מסוימים ועוד.[56]
בסוף פברואר 2022 התפרסמה קבוצה של מודלים "מעל" סטייבל דיפיוז'ן שנקראת ControlNet. מודלים אלה מאפשרים יצירה של תמונות על בסיס פענוח "מרחב ביניים", לדוגמה - אפשר להכניס תמונה והמודל מצליח לחלץ ממנה את ה"פוזה" של האנשים בפריים ולייצר תמונות חדשות לגמרי, לפי טקסט, אבל - תמונות חדשות לגמרי שבהן האנשים בדיוק באותה פוזה של הדמויות בתמונת המקור. הפונקציה הזו מאפשרת כוריאוגרפיה מלאה של סרטי אנימציה. דוגמה נוספת - ניתן להכניס תמונה דו־ממדית "רגילה", המודל מצליח לפענח ממנה את המודל התלת־ממדי של הדמויות האנושיות ולהשתמש בזה לצורך יצירת תמונות חדשות, לפי טקסט, תמונות שבהן רק המודל התלת־ממדי מאומץ מתמונת המקור ואילו התמונה כולה נוצרה לפי הטקסט.
סביב 15.3.2023 התפרסמה גרסה 5 של מידג'ורני (למשתמשים משלמים בלבד). הגרסה תומכת ברזולוציה גבוהה, תמונות עם ריבוי של אנשים באותה תמונה - כולל מענה חזותי לאינטראקציות בין האנשים השונים, שיפור ניכר ביכולת לחולל כפות ידיים, בציור דמויות של אנשים מפורסמים, בדיוק האנטומי של שיניים ותכונות נוספות.
סביב אותו תאריך, 15.3.2023 התפרסמה גרסה חדשה של מודל השפה הגדול של חברת Open AI, בתצורת "בוט שיחה" - Chat GPT4. ה"בוט" מסתדר הרבה יותר טוב בעברית (בהשוואה לגרסאות קודמות), הסיכויים לקבלת מענה שגוי הצטמצמו בהרבה, ה"בוט" מסתדר הרבה יותר טוב עם חישובים מתמטיים, הוא מכיר יותר שפות תכנות והוא פחות "פגיע" לדירדור לדיבורי שנאה, פורנו, נאצות וכיוצא באלו. ה"בוט" משמש, כבר בהשקה, יישומים כמו "דולינגו" והוא פתוח למשתמשי CHAT GPT משלמים כבר מההשקה. במבחני אינטליגנציה רבים, ה"בוט" מצליח ברמה העולה על נבחן אנושי ממוצע - כולל במבחני כניסה לאוניברסיטאות מובילות בעולם. לפי מקורות רבים - ה"בוט" יידע לקבל תמונה כ"אינפוט" ולהתייחס למה שמופיע בתמונה באמצעות שילוב של הבנת שפה ואינטליגנציה "כמו אנושית". תכונה זו תאפשר ל"בוט" להתייחס בזמן אמיתי לעולם שסביבו - כאשר מצלמות הטלפונים הסלולריים משמשות לו כעיניים. תכונה זו טרם שוחררה לציבור הרחב (נכון ל 17.3.2023). לפי מקורות שונים, ל"בוט" תהייה גם יכולת "להאזין" למיקרופונים, לייצר "אודיו", לייצר מוזיקה ולייצר ווידאו לפי טקסטים. תכונות אלו טרם נצפו.
סביב 20.3.2023 חברת Open AI פרסמה כי היא תאפשר חיבור בין Chat GPT4 לבין יישומי אינטרנט שונים באמצעות API. מודל זה מזכיר מצב שבו ה Chat GPT4 הוא סוג של "מערכת הפעלה" שניתן לשוחח איתה ישירות, בדיבור חופשי והיא מבצעת משימות עבור המשתמש - כמו למשל, קניית מזון, הזמנת מקומות במסעדה או הזמנת כרטיסי טיסה.
סביב 25.3.2023 אפליקציית Playground-AI הכניסה פונקציונליות של Canvas. המשמעות היא שניתן לעשות "שיחלוף חזותי", "זום אאוט קונטקסטואלי" וכיוצא באלו - בצורה נוחה ובהתייחס לחלון התייחסות מוגדר היטב.
ב 5.3.2023 - Stable Diffusion שחררו לציבור (דרך Dream Studio) גרסת ביניים שנקראת SD-XL. גרסה זו כוללת מגוון שיפורים שהבולט ביניהם זו היכולת "לצייר" טקסט בתוך התמונה שהיישום מחולל.
ב 5.3.2023 - מידג'ורני שילבו פקודה חדשה שנקראת Describe. הפעלת הפקודה מאפשרת להעלות תמונה למחשב, לקבל ארבע חלופות לתיאור התמונה - כך שחלופות אלה יכולות לשמש כטקסט לחלון הנחיה חדש - שאינו מתחשב בתמונה המקורית עצמה.
סביב 1.3.2023 חברת RunwayML פרסמה לציבור את GEN-1 שמאפשר להעלות קובצי ווידאו למחשב - ולשנות את הסגנון שלהם, להוסיף להם אפקטים וכדומה.
החל מאמצע פברואר 2023 - החלו "לצוץ" מגוון גדול של יישומים אוטונומיים-עצמאיים המאפשרים לשרשר מודלים של בינה מלאכותית, ללא מעורבות אדם, יישומים כאלה מכונים גם סוכן תבוני. רוב היישומים נשענים על קלט ו"מערכת הפעלה" המבוססים על מודלי שפה גדולים ובעיקר ChatGPT4. אחד היישומים הבולטים הוא ג'ארוויס של מיקרוסופט שמאפשר "תפירה" של כל המודלים הנמצאים באתר Hugingface, כולל מודלים מולטי-מודאליים (ונכון לתחילת מרץ 2023 - יש 168,000 מודלים כאלה).
החל ממרץ 2023, חברת מיקרוסופט שילבה במנוע החיפוש שלה, "בינג החדש" חלון הנחיה שמאפשר לנהל שיחה עם GPT-4. הדפדפן של מיקרוסופט, אדג', מאפשר שלושה מודי עבודה. כאשר משתמשים במוד היצירתי - ניתן לשלב שיחה עם GPT ובמקביל, לחולל תמונות בהתבסס על DALL E 2. השילוב הזה הוא אחד היישומים הראשונים בעולם המשלבים יכולת מולטי-מודלית - שיחה ויצירת תמונות, בתפוצה רחבה של מאות מיליוני משתמשים ברחבי העולם ובמגוון שפות.
ב 29.04.2023 התפרסם מודל חדש ליצירת תמונות מחלון הנחיה טקסטואלי, ששמו DeepFloyd, המודל מתאפיין ביכולת לשלב טקסט בתוך התמונה.
באמצע מאי 2023, חברת אדובי שילבה אלגוריתמי "בינה מלאכותית יוצרת" לתוך תוכנת "פוטושופ". חבילת העדכון נקראת Firefly והיא בין השאר, נבדלת מהחברות האחרות בכך שבסיס הנתונים עליו אומנו המודלים של החברה - לא מכיל מידע שיש עליו זכויות יוצרים. השילוב לתוך הפונקציונליות הרגילה של פוטושופ - יצר "חבילת תוכנה" שנחשבת חזקה במיוחד למגוון גדול של בעלי מקצוע ובכללם מעצבים, צלמים וכיוצא בזה.
ב 20.08.2023 שולבה תכונת ה"שחלוף חזותי" (Inpainting) באפליקציית מידג'ורני.
החל מה 20.9.2023, גרסה חדשה של רשת תרגום טקסט לתמונה, DALL-E-3, החלה להיות מופצת על ידי Open-AI דרך ערוצים שונים (מנוע החיפש של מיקרוסופט, בינג, אדג', אתר החברה באינטרנט והאפליקציות השונות לסלולרי).
במקביל, OpenAI "משחררת מחדש" חיבור של אפליקציית ChatGPT לאינטרנט ויכולת לנהל שיחה עם האפליקציה בדיבור וקבלת מענה קולי ("אודיו"), תכונה שמאפשרת לשוחח עם האפליקציה ChatGPT, בזמן נהיגה למשל.
תהליכי יצירה
[עריכת קוד מקור | עריכה]ברוב היישומים מוצגות מספר תוצאות ש"ח יצירות כך שהמשתמש יכול לבחור את התוצאה הרצויה לו או לבקש ליצור גרסאות נוספות.
יצירת תמונה מטקסט
[עריכת קוד מקור | עריכה]בתהליך זה, המשתמש האנושי מכניס טקסט לתוך "חלון ההנחיה" (Prompt) והיישום הופך את הטקסט לתמונה. בדרך כלל, כדאי ללוות את הטקסט שמתאר את התמונה בתיאורים של הסגנון הרצוי, התאורה, אמן מוכר, דמות מוכרת, תקופה היסטורית, יישום מוכר של תוכנת עריכה קיימת וכיוצא באלו. בחלק מהתוכנות, אפשר גם לתת פקודות שונות המתארות את החשיבות היחסית של כל קטע טקסט.
העלאת תמונה ויצירת תמונה אחרת בהשראתה
[עריכת קוד מקור | עריכה]ברוב היישומים, נתן להעלות תמונה קיימת, ממקור כלשהו, אל חלון ההנחיה. היישום יידע לייצר תמונה "בהשראת" הקובץ שהועלה.
באיור המצורף - דוגמה לתמונה שמידג'ורני יצרה, על סמך ציור של עץ באובב - ללא תיאור טקסטואלי בכלל, אחרי כמה עשרות איטרציות של וריאציות חוזרות ונשנות בתוך היישום.
העלאת תמונה וגם טקסט
[עריכת קוד מקור | עריכה]בתהליך זה, היישום ייצר תמונה שגם מביאה בחשבון את קובץ התמונה וגם את התיאור הטקסטואלי
עריכה של תמונה קימת
[עריכת קוד מקור | עריכה]בתהליך זה, הממשתמש מעלה תמונה, מוחק חלקים ממנה ומבקש מהיישום למלא את המחיקה, באמצעות תיאור טקסטואלי של איך הוא מבקש למלא את התמונה. טכניקה זו מאפשרת, בין השאר, לתקן פוקוס בצילום - יכולת חדשנית שעוזרת המיוחד במיקרים של צילום "מאקרו".[57]
"זום אאוט קונטקסטואלי" מתמונה קיימת
[עריכת קוד מקור | עריכה]בטכניקה זו, המשתמש מעלה תמונה לתוכנת עריכה רגילה (למשל, פוטושופ), מגדיל את הקנבס ורק אז מעלה את התמונה אל היישום. בתוך היישום, המשתמש מוחק את הקנבס שמסביב לתמונה המקורית ואז מבקש, על ידי תיאור טקסטואלי להשלים את הקנבס החסר. טכניקה זו מאפשרת להפוך תמונת פורטרט לתמונה של אדם בגודל מלא בתוך סצנה של מסיבה למשל. למעשה, טכניקה זו מאפשרת "זום אאוט" רצוף, כאשר יישום הבינה המלאכותית ממלא את האזור שלא היה בתמונה המקורית לפי "הדמיון" של עצמו והיצירה של עצמו.
שיחלוף חזותי
[עריכת קוד מקור | עריכה]טכניקה המאפשרת למחוק קטע מהתמונה ולבקש מהתוכנה להשלים את הקטע שנמחק - ע"פ טקסט בחלון ההנחיה וההקשר החזותי של התמונה עצמה, Inpainting באנגלית.
איחוי תמונות
[עריכת קוד מקור | עריכה]חלק מהתוכנות מאפשרות להעלות שתי תמונות שהודבקו על אותו קנבס ב"מרחק" האחת מהשנייה ו"לבקש" מהתוכנה למלא את המרווחים, ע"פ טקסט בחלון ההנחיה ובצורה שתתחבר לתמונות הקיימות בצורה שלא מאפשרת לראות את החיבור.
תהליך איטרטיבי
[עריכת קוד מקור | עריכה]המשתמש יכול ליצור תמונה בכל אחד מהתהליכים שתוארו למעלה - ואז לייצא אותה לתוכנת עריכה רגילה, להעלות את התמונה החדשה אל היישום, לעבוד עליה וחוזר חלילה.
תיאור תהליכי העבודה מופיע באיור שמשמאל
שימוש ב"מסגרת התייחסות" ו"מסכות"
[עריכת קוד מקור | עריכה]נכון לשלהי 2022, מתפתחות תוכנות שמאפשרות שימוש בשילוב של "מסגרת התייחסות" ו"מסכות". התוכנה מאפשרת להגדיר "חלון התייחסות" - כך שהבינה המלאכותית תתייחס רק לאותו מידע שנמצא בתוך חלון ההתייחסות - כך למשל, אם התמונה שעובדים עליה כוללת שמים וקרקע ו"חלון ההתייחסות" יצומצם כך שרק האדמה מוכלת ב"חלון ההתייחסות" - כל הפעולות שיבוצעו יהיו בהקשר לתוכן הוויזואלי של חלון ההתייחסות בלבד. לדוגמה - אם המשתמש יבצע "שיחלוף חזותי" - השיחלוף יהיה כך שהאלגוריתמיקה תנסה להתאים את התמונה "החדשה" אל תכולת חלון ההתייחסות בלבד ולא לתמונה כולה.
מנגנון נוסף הן "מסכות" המאפשרות למשתמש לצייר "מסכה" או שקף על גבי התמונה המקורית. כל הפעולות שמתבצעות בהמשך להצבת המסכה מתבצעות רק על השטח שאותו המסכה מכסה.
הצירוף של "חלון התייחסות" ו"מסכות" מאפשר בעצם "לצייר" ביד חופשית סוג של "סקיצה", להגדיר "חלון הנחיה טקסטואלי" וכך - לצייר "כל תמונה רצויה" באמצעות בינה מלאכותית יוצרת - בלי שיש צורך לצאת מחוץ ליישום. תוכנה מובילה בהקשר זה היא InvokeAI.[58][59][60]
שימוש ב"צמתים" (Nodes)
[עריכת קוד מקור | עריכה]אחת השיטות המתפתחות לשילוב של יישומים מורכבים - היא ויזואליזציה של "צמתים", כאשר כל צומת מייצגת פעולה מורכבת ולכל צומת יש מספר כניסות ומספר יציאות - וגם יכולת להגדיר משתנים שונים. לדוגמה, בתוכנת בלנדר, יש יכולת לנהל חומרים בשיטה זו - כאשר צומת אחת מגדירה את הצבע, צומת אחת מגדירה את השקיפות של החומר, צומת אחרת את החיספוס, צומת אחת את מידת ההחזרים, האם יש תופעה של החזרות רבות בתוך החומר המסוים וכיוצא באלו. יתרונה של השיטה - זה שהיא מאפשרת "לחבר" יישומים מורכבים בצורה פשוטה יחסית - מההיבט של "מימשק משתמש". חלק מיישומי הבינה מלאכותית מתוכננים לממש יכולת זו - באופן שיאפשר לשלב רשתות/ יישומים, כך למשל - אפשר לחבר רשת "שמע לטקסט" ל"רשת טקסט-תרגום-טקסט", ל"רשת טקסט - השבחת טקסט באמצעות מודל שפה גדול - לטקסט" לרשת "טקסט לתמונה" - לרשת "תמונה - שינוי סגנון - לתמונה" וכדומה.
באמצע מרץ 2023, התפרסם יישום המאפשר לחולל - ליצור תמונות בשיטת המימשק של "צמתים" - NODES. היישום פתוח לשימוש חינמי ושמו ComfyUI.[61]
הבטים אתיים
[עריכת קוד מקור | עריכה]אתיקה של בינה מלאכותית. פיתוחים בתחום אמנות מבוססת בינה מלאכותית עלולים לשמש למגוון פעולות זדוניות ובכללן יצירת ידיעות כוזבות, זיוף תמונות או ווידאו, שימוש לטובת השפעה אסורה על בחירה של אנשים, למשל, בהקשר לבחירות במדינות דמוקרטיות וכיוצא באלו. מסמך ראשוני בנושא פורסם על ידי המשרד לחדשנות, מדע וטכנולוגיה כ"מצפן" להתייחסות של הציבור, ב 30.10.2022.[62]
נושא אחר אשר מעורר שלל שאלות ודיונים אתיים הוא השאלה האם יצירה שנוצרה בידי מערכת בינה מלאכותית עשויה להיות מוגנת בזכויות יוצרים? בשנת 2023 בית המשפט של מחוז קולומביה בארצות-הברית פסק שהתשובה לשאלה זו היא שלילית, אך הנושא עדיין נידון במסגרות משפטיות ואקדמיות.[דרוש מקור]
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- תבונה - בלוג מאמרים ומדריכים על אומנות בינה מלאכותית
- נעם בוקסבאום, בכתבה הזו יש פסקה שניסח המחשב. מזהים?, באתר TheMarker, 7 בדצמבר 2022
- איתמר קציר, הבינה המלאכותית משגעת את עולם האמנות. מי אמר שזה רע?, באתר הארץ, 11 בינואר 2023
- אופיר חובב, מי כאן היוצר: אמנים דיגיטליים או בינה מלאכותית?, באתר הארץ, 17 בינואר 2023
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ מאמר פופולרי באתר "רשתטק"
- ^ 1 2 אתר המודל של DALLE2
- ^ כתבה באתר CNET על גוגל פרטי
- ^ המאמר באתר המחקר של גוגל
- ^ אתר ההרשמה לתוכנה
- ^ אתר היישום
- ^ אתר היישום Night Cafe
- ^ אתר היישום Gaugan2
- ^ אתר הפרסום אודות היישום Makeavideo כולל לא מעט סרטוני הדגמה
- ^ 1 2 מאמר באתר techcrunch
- ^ אתר האפליקציה של Deforum באינטרנט, באירוח Replicate
- ^ סרטון ווידאו שיוצר באמצעות invideo, לקידום תחבורה ציבורית אוטונומית
- ^ סרטון אודות SORA, כולל סרטוני דוגמה רבים
- ^ סרטון יו טיוב המתאר את תהליך הפיכת תמונה שנוצרה בתוכנת "טקסט לתמונה" לטקסטורה שמקדדת תבליט על מודל תלת־ממדי
- ^ סרטון יו טיוב המתאר את היישום של חברת NVIDIA - ליצירת מודלים "קטנים" בתלת־ממד
- ^ אומניוורס של NVIDIA כשרות ענן
- ^ סרטון הדגמה של חברת Blokade Labs באתר יוטיוב
- ^ מאמר על המודל בבלוג של חברת "דיפמיינד"
- ^ מאמר על המודלים השונים ויישומים אפשריים שלהם
- ^ אתר המודל של GPT-3
- ^ תיאור המודל בבלוג של גוגל
- ^ סרטון יו-טיוב על מודל PaLM, מאת דר' אלן תומפסון האוסטרלי
- ^ המאמר האקדמי שמתאר את מודל PaLM
- ^ מאמר המתאר את המודל של אנווידיה ומיקרוסופט
- ^ 1 2 אתר המודל BLOOM
- ^ כתבה על המחזות בפסטיבל התיאטרון פרינג' של אדמונטון קנדה, 2022
- ^ כיסוי ה"דרמטרון" בסדרת הסרטונים של דר' אלן תומפסון
- ^ סרטון יו טיוב שמתאר את "הראפר הווירטואלי" והעסקתו
- ^ סרטון יו טיוב שמדגים את תהליך יצירת הקליפ
- ^ סרטון יו-טיוב המתאר את אופן השימוש ביכולת Inpainting
- ^ אתר אינטרנט המאפשר לייצר קליפים קצרים לפי טקסט
- ^ אתר היישום ליצירת קטעי וידאו, D-ID
- ^ סרטון יו-טיוב הכולל ראיונות עם מפתחי הפרויקט
- ^ סרטון יו-טיוב The art channel
- ^ סרטון יו-טיוב Euronews
- ^ אתר הפרויקט, כולל גלריות של תוצרי עבודת ההיומנואידית
- ^ כתבה על הופעתה של AI-DA, בפני בית הלורדים, בבריטניה,וושינגטון פוסט" מאוקטובר 2022
- ^ סרטון יו-טיוב של Redone
- ^ סרטון יו-טיוב של StephenCoorlas
- ^ סרטון יו-טיוב המתאר את החיבור של מנוע UNITY עם מודל השפה GPT3
- ^ מימוש של האפליקציה באתר Dreem Studio
- ^ מימוש של אפליקציית SD באתר Huggingface
- ^ מימוש של אפליקציית SD באתר Huggingface, להפיכת סקצ' לתמונה ברזולצייה גבוהה
- ^ מימוש של אפליקציית SD באתר DreamStudio
- ^ סרטון הדרכה על התכונות החדשות, מאת ScottDetwiler
- ^ סרטון הדרכה על התכונות החדשות, מאת ScottDetwiler
- ^ קבוצת הפייסבוק "עליית המכונות" של מתי מריאנסקי
- ^ אתר החברה שמאפשרת לשלב דמויות אמיתיות לתוך תוכנת "טקסט לתמונה"
- ^ מימוש מודל ERNIE-ViLG 2.0 מעל Huggingface
- ^ יישום להרחבת חלונות הנחיה מעל Huggingface
- ^ אתר Futurepedia שמכסה את רוב יישומי ה AI ומתוחזק בצורה שוטפת
- ^ אתר הצ'ט writesonic
- ^ יישום Versatile Diffusion מעל huggingface
- ^ יישום Karlo מעל huggingface
- ^ סרטון יוטיוב המדגים את היכולת החדשה
- ^ סרטון יוטיוב המדגים את היכולות החדשות של RunwayML
- ^ סרטון יו-טיוב המתאר את אופן השימוש ביכולות העריכה של DALLE2, כולל תיקון "פוקוס" בצילום נתון
- ^ סרט יוטיוב של אחת מגרסאות InvokeAI
- ^ סרט יוטיוב המתאר את השימוש ב InvokeAI
- ^ סרט יוטיוב המתאר את השימוש ב InvokeAI בצורה איטרטיבית רצופה
- ^ סרטון יוטיוב המתאר את ההתקנה על המחשב המקומי ונותן הדרכה בסיסית על אופן השימוש
- ^ הפניה למסמך באתר הממשלה, המשרד לחדשנות, מדע וטכנולוגיה